Para el ICFES es muy importante conocer cuáles son los factores de éxito en el desempeño en un curso de matemáticas de estudiantes de grado 10mo.
El presente informe, tiene como objetivo presentar las características de los datos de estudiantes de grado 10mo que incluye su desempeño el curso de matemáticas.
Los datos fueron recolectados en un colegio a través del seguimiento del rendimiento académico en el curso de matemáticas.
Inicialmente se presentarán los detalles de la estructura de la base de datos, donde se detallará aspectos como el significado de cada fila y columna, los tipos de variable. Seguido de los detalles de la base de datos, expondremos los hallazgos más importantes en el análisis descriptivo univariado y bivariado y el tratamiento que les dimos. Por último, se listarán una serie de conclusiones y recomendaciones teniendo en cuenta los hallazgos encontrados en los datos.
Antes de empezar se cambia el formato de los datos:
| sex | age | address | Pstatus | Medu | Fedu | reason | traveltime | paid | internet | absences | G3 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Femenino | 18 | Urbano | Separados | higher education | higher education | course | 15 to 30 min. | no | no | 6 to 10 absences | 6 |
| Femenino | 17 | Urbano | Viviendo juntos | none or primary education (4th grade) | none or primary education (4th grade) | course | <15 min. | no | yes | 0 to 5 absences | 6 |
| Femenino | 15 | Urbano | Viviendo juntos | none or primary education (4th grade) | none or primary education (4th grade) | other | <15 min. | yes | yes | 6 to 10 absences | 10 |
| Femenino | 15 | Urbano | Viviendo juntos | higher education | 5th to 9th grade | home | <15 min. | yes | yes | 0 to 5 absences | 15 |
| Femenino | 16 | Urbano | Viviendo juntos | secondary education | secondary education | home | <15 min. | yes | no | 0 to 5 absences | 10 |
| Masculino | 16 | Urbano | Viviendo juntos | higher education | secondary education | reputation | <15 min. | yes | yes | 6 to 10 absences | 15 |
El objetivo de esta sección es mostrar los hallazgos más relevantes del análisis univariado y su relación con la variable dependiente. Esto con el objetivo de dar un vistaso de las variables, mirar su distribución y encontrar si realmente tienen relación:
| vars | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | IQR | Q0.25 | Q0.75 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | 357 | 11.52381 | 3.227797 | 11 | 11.45993 | 2.9652 | 4 | 20 | 16 | 0.2075008 | -0.4275731 | 0.1708331 | 5 | 9 | 14 |
A continuación se hace la prueba de normalidad con 3 pruebas diferentes
## [1] 48 199
##
## Shapiro-Wilk normality test
##
## data: data$G3
## W = 0.98082, p-value = 0.000109
##
## Anderson-Darling normality test
##
## data: data$G3
## A = 2.5143, p-value = 2.323e-06
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: data$G3
## D = 0.11068, p-value = 2.376e-11
Tal como se muestra en la gráfica y en las pruebas shapito, Anderson-Darling y Lilliefors (Kolmogorov-Smirnov) las notas de matemáticas NO siguen una distribución normal.
| vars | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | IQR | Q0.25 | Q0.75 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | 357 | 16.65546 | 1.268262 | 17 | 16.58188 | 1.4826 | 15 | 22 | 7 | 0.5402778 | 0.1834692 | 0.0671235 | 2 | 16 | 18 |
A continuación se hace la prueba de normalidad con 3 pruebas diferentes
## [1] 226 355
##
## Shapiro-Wilk normality test
##
## data: data$age
## W = 0.90743, p-value = 5.702e-14
##
## Anderson-Darling normality test
##
## data: data$age
## A = 11.295, p-value < 2.2e-16
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: data$age
## D = 0.18195, p-value < 2.2e-16
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| 5th to 9th grade | 102 | 28.57 | 28.57 |
| secondary education | 94 | 26.33 | 54.90 |
| higher education | 88 | 24.65 | 79.55 |
| none or primary education (4th grade) | 73 | 20.45 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| 5th to 9th grade | 102 | 28.57 | 28.57 |
| secondary education | 94 | 26.33 | 54.90 |
| higher education | 88 | 24.65 | 79.55 |
| none or primary education (4th grade) | 73 | 20.45 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| 5th to 9th grade | 102 | 28.57 | 28.57 |
| secondary education | 94 | 26.33 | 54.90 |
| higher education | 88 | 24.65 | 79.55 |
| none or primary education (4th grade) | 73 | 20.45 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| higher education | 125 | 35.01 | 35.01 |
| secondary education | 90 | 25.21 | 60.22 |
| 5th to 9th grade | 89 | 24.93 | 85.15 |
| none or primary education (4th grade) | 53 | 14.85 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| 5th to 9th grade | 102 | 28.57 | 28.57 |
| secondary education | 94 | 26.33 | 54.90 |
| higher education | 88 | 24.65 | 79.55 |
| none or primary education (4th grade) | 73 | 20.45 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| <15 min. | 236 | 66.11 | 66.11 |
| 15 to 30 min. | 95 | 26.61 | 92.72 |
| >30 min. | 26 | 7.28 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| no | 184 | 51.54 | 51.54 |
| yes | 173 | 48.46 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| course | 126 | 35.29 | 35.29 |
| reputation | 99 | 27.73 | 63.02 |
| home | 97 | 27.17 | 90.19 |
| other | 35 | 9.80 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| yes | 299 | 83.75 | 83.75 |
| no | 58 | 16.25 | 100.00 |
| var | frequency | percentage | cumulative_perc |
|---|---|---|---|
| 0 to 5 absences | 211 | 59.10 | 59.10 |
| 6 to 10 absences | 80 | 22.41 | 81.51 |
| 11 to 20 absences | 51 | 14.29 | 95.80 |
| >20 absences | 15 | 4.20 | 100.00 |
Al momento de analizar las relaciones entre variables cuantitativas y cualitativas se debe verificar que los datos cumplan una distribucion normal, dependiendo de esto se pueden tomar diferentes caminos para probar igualdad de medias entre diferentes tratamientos. A continuacion evaluamos la normalidad de la variable G3.
[1] 48 199
Como se ve en el grafico algunos puntos se ven fueras de los rangos, lo cual puede significa que no se cumple normalidad. Para validar esto se puede hacer un prueba de Shapiro Shapiro-Wilk normality test
data: data$G3 W = 0.98082, p-value = 0.000109
Dado que el valor p es menor a 0.05 se rechaza la hipotesis nula de normalidad en la distribucion de los datos Anderson-Darling normality test
data: data$G3 A = 2.5143, p-value = 2.323e-06
Seguido se realiza la prueba de Anderson-Darling, dado que el valor p es menor a 0.05 se rechaza la hipotesis nula de normalidad en la distribucion de los datos.
Tenemos entonces mayor certeza al descartar el supuesto de normalidad en los datos.
Dado que no se cumple normalidad podriamos realizar un analisis de igualdad de medias con la prueba de Kruskal-Wallis.
## category n mean sd median trimmed
## G31 none or primary education (4th grade) 53 10.3962 2.5969 10 10.3488
## G32 5th to 9th grade 89 11.2584 2.7367 11 11.1644
## G33 secondary education 90 11.3333 3.4250 11 11.2361
## G34 higher education 125 12.3280 3.4752 13 12.3465
## mad min max range skew kurtosis se IQR Q0.25 Q0.75
## G31 2.9652 5 16 11 0.1388 -0.2456 0.3567 3.00 9 12.00
## G32 2.9652 6 19 13 0.3303 -0.0589 0.2901 3.00 10 13.00
## G33 2.9652 5 19 14 0.2696 -0.5994 0.3610 4.75 9 13.75
## G34 4.4478 4 20 16 -0.0966 -0.6360 0.3108 5.00 10 15.00
Vemos que visualmente entre las diferentes tratamientos hay diferencias, para verificar esto estadisticamente procedemos a realizar una prueba de Kruskal-Wallis. Esta prueba verifica la igual entre las medias de las diferentes poblaciones.
##
## Kruskal-Wallis rank sum test
##
## data: G3 by Medu
## Kruskal-Wallis chi-squared = 14.821, df = 3, p-value = 0.001976
Como el valor p es menor a 0.05 se puede decir con un nivel de signficancia de 95% que existe diferencia significativa entre las medias de los grupos. Es decir, esta prueba corrobora con un nivel de significancia de 95% que el nivel educativo de la madre (Medu) influye sobre las notas finales. Dado que se rechazo la hipotesis nula de la prueba se puede realizar la prueba de Wilcox para identificar cuales son las medias diferentes.
##
## Pairwise comparisons using Wilcoxon rank sum test
##
## data: Medu_G3$G3 and Medu_G3$Medu
##
## none or primary education (4th grade) 5th to 9th grade
## 5th to 9th grade 0.2288 -
## secondary education 0.2805 0.9491
## higher education 0.0024 0.0640
## secondary education
## 5th to 9th grade -
## secondary education -
## higher education 0.1309
##
## P value adjustment method: holm
## none or primary education (4th grade) 5th to 9th grade
## 5th to 9th grade FALSE NA
## secondary education FALSE FALSE
## higher education TRUE FALSE
## secondary education
## 5th to 9th grade NA
## secondary education NA
## higher education FALSE
Al utilizar la prueba wilcox para identificar las medias diferentes se puede decir con un nivel de confiabilidad de 95% que son estadisticamente diferentes las medias entre higher education y none or primary education (4th grade). Es decir la media de notas finales de los estudiantes con madres con educacion universitaria son diferentes a las notas de los estudiantes con madres con educacion nula o primaria.
Dado que no se cumple normalidad podriamos realizar un analisis de igualdad de medias con la prueba de Kruskal-Wallis.
## item category vars n mean sd median
## G31 1 none or primary education (4th grade) 1 73 10.6438 3.0063 10.0
## G32 2 5th to 9th grade 1 102 11.5686 3.1639 11.0
## G33 3 secondary education 1 94 11.3404 3.2447 11.0
## G34 4 higher education 1 88 12.3977 3.2889 12.5
## trimmed mad min max range skew kurtosis se IQR Q0.25 Q0.75
## G31 10.5085 2.9652 5 18 13 0.4026 -0.3891 0.3519 4 8 12
## G32 11.5366 2.9652 5 19 14 0.1636 -0.2861 0.3133 4 10 14
## G33 11.1842 2.9652 4 20 16 0.4075 -0.2874 0.3347 4 9 13
## G34 12.4583 3.7065 5 19 14 -0.1595 -0.4848 0.3506 5 10 15
Vemos que visualmente entre las diferentes tratamientos hay diferencias, para verificar esto estadisticamente procedemos a realizar una prueba de Kruskal-Wallis. Esta prueba verifica la igual entre las medias de las diferentes poblaciones.
##
## Kruskal-Wallis rank sum test
##
## data: G3 by Fedu
## Kruskal-Wallis chi-squared = 13.83, df = 3, p-value = 0.003146
De igual manera, para este analisis como el valor p es menor a 0.05 se puede decir con un nivel de signficancia de 95% que existe diferencia significativa entre las medias de los grupos. Es decir, esta prueba corrobora con un nivel de significancia de 95% que el nivel educativo del padre (Fedu) influye sobre las notas finales. Posteriormente se puede realizar una prueba de Wilcox para identificar las medias diferentes
##
## Pairwise comparisons using Wilcoxon rank sum test
##
## data: Fedu_G3$G3 and Fedu_G3$Fedu
##
## none or primary education (4th grade) 5th to 9th grade
## 5th to 9th grade 0.1737 -
## secondary education 0.3906 0.4431
## higher education 0.0023 0.1760
## secondary education
## 5th to 9th grade -
## secondary education -
## higher education 0.0688
##
## P value adjustment method: holm
## none or primary education (4th grade) 5th to 9th grade
## 5th to 9th grade FALSE NA
## secondary education FALSE FALSE
## higher education TRUE FALSE
## secondary education
## 5th to 9th grade NA
## secondary education NA
## higher education FALSE
En el resultado de la prueba wilcox se puede identificar las medias estadisticamente diferentes con un nivel de confiabilidad de 95%. Vemos que las medias entre higher education y none or primary education (4th grade) tiene valor menor a 0.05 por tanto son diferentes. Es decir la media de notas finales de los estudiantes con padres con educacion universitaria son diferentes a las notas de los estudiantes con padres con educacion nula o primaria.
Dado que no se cumple normalidad podriamos realizar un analisis de igualdad de medias con la prueba de Kruskal-Wallis.
## category n mean sd median trimmed mad min max range skew
## G31 <15 min. 236 11.7415 3.3129 11 11.7053 2.9652 4 20 16 0.1132
## G32 15 to 30 min. 95 11.1579 3.1227 11 11.0649 2.9652 5 19 14 0.3154
## G33 >30 min. 26 10.8846 2.6732 10 10.7727 2.9652 6 18 12 0.5655
## kurtosis se IQR Q0.25 Q0.75
## G31 -0.4633 0.2157 4.25 9.75 14.00
## G32 -0.4958 0.3204 4.00 9.00 13.00
## G33 0.1951 0.5243 2.75 10.00 12.75
Vemos que visualmente entre las diferentes tratamientos hay diferencias, para verificar esto estadisticamente procedemos a realizar una prueba de Kruskal-Wallis.
##
## Kruskal-Wallis rank sum test
##
## data: G3 by traveltime
## Kruskal-Wallis chi-squared = 3.7159, df = 2, p-value = 0.156
Para el caso de tiempo de viaje se evidencia que el valor p es mayor a 0.05, lo cual quiere decir que no hay una relacion significativa entre las variables. Es decir, el tiempo de viaje del estudiante no afecta significativa el resultado de las notas finales.
Dado que no se cumple normalidad podriamos realizar un analisis de igualdad de medias con la prueba de Kruskal-Wallis.
## category n mean sd median trimmed mad min max range skew
## G31 no 184 11.6141 3.4017 11 11.5676 2.9652 5 20 15 0.1702
## G32 yes 173 11.4277 3.0388 11 11.3525 2.9652 4 19 15 0.2353
## kurtosis se IQR Q0.25 Q0.75
## G31 -0.5850 0.2508 5 9 14
## G32 -0.2895 0.2310 4 10 14
Vemos que visualmente no hay diferencias notables entre las medias de los tratamientos, para verificar esto estadisticamente procedemos a realizar una prueba de Kruskal-Wallis.
##
## Kruskal-Wallis rank sum test
##
## data: G3 by paid
## Kruskal-Wallis chi-squared = 0.26329, df = 1, p-value = 0.6079
En este caso tambien vemos que el valor p no es menor a 0.05 por tanto, no hay una relacion significativa entre las variables. Es decir, las clases pagas extra no afectan significativamente las notas finales.
| category | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | IQR | Q0.25 | Q0.75 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| G31 | no | 58 | 10.7069 | 2.9677 | 10 | 10.6042 | 2.9652 | 5 | 18 | 13 | 0.3126 | -0.1275 | 0.3897 | 3 | 9 | 12 |
| G32 | yes | 299 | 11.6823 | 3.2568 | 11 | 11.6224 | 2.9652 | 4 | 20 | 16 | 0.1719 | -0.4828 | 0.1883 | 4 | 10 | 14 |
##
## Kruskal-Wallis rank sum test
##
## data: G3 by internet
## Kruskal-Wallis chi-squared = 4.2654, df = 1, p-value = 0.0389
| category | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | IQR | Q0.25 | Q0.75 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| G31 | course | 126 | 11.3016 | 3.2478 | 11 | 11.2255 | 2.9652 | 5 | 19 | 14 | 0.2709 | -0.4072 | 0.2893 | 4 | 9 | 13 |
| G32 | home | 97 | 11.5258 | 3.0791 | 11 | 11.4051 | 2.9652 | 5 | 19 | 14 | 0.3387 | -0.4560 | 0.3126 | 4 | 10 | 14 |
| G33 | other | 35 | 11.4857 | 3.2843 | 11 | 11.4138 | 2.9652 | 5 | 19 | 14 | 0.1892 | -0.5487 | 0.5551 | 3 | 10 | 13 |
| G34 | reputation | 99 | 11.8182 | 3.3484 | 12 | 11.8148 | 2.9652 | 4 | 20 | 16 | 0.0193 | -0.4937 | 0.3365 | 4 | 10 | 14 |
##
## Kruskal-Wallis rank sum test
##
## data: G3 by reason
## Kruskal-Wallis chi-squared = 1.5656, df = 3, p-value = 0.6672
## category n mean sd median trimmed mad min max range
## G31 0 to 5 absences 211 12.0000 3.1275 12 11.9467 2.9652 5 20 15
## G32 6 to 10 absences 80 11.4000 3.2320 11 11.2969 2.9652 5 19 14
## G33 11 to 20 absences 51 10.1176 2.9976 10 10.0976 2.9652 5 17 12
## G34 >20 absences 15 10.2667 3.8446 9 10.1538 2.9652 4 18 14
## skew kurtosis se IQR Q0.25 Q0.75
## G31 0.1859 -0.5762 0.2153 5 10 15
## G32 0.3053 -0.3664 0.3613 5 9 14
## G33 0.0592 -0.6449 0.4198 4 8 12
## G34 0.6830 -0.2016 0.9927 3 8 11
##
## Kruskal-Wallis rank sum test
##
## data: G3 by absences
## Kruskal-Wallis chi-squared = 15.905, df = 3, p-value = 0.001186
##
## Pairwise comparisons using Wilcoxon rank sum test
##
## data: absences_G3$G3 and absences_G3$absences
##
## 0 to 5 absences 6 to 10 absences 11 to 20 absences
## 6 to 10 absences 0.3654 - -
## 11 to 20 absences 0.0027 0.1786 -
## >20 absences 0.1786 0.3654 0.8172
##
## P value adjustment method: holm
## category n mean sd median trimmed mad min max range skew
## G31 Femenino 185 11.2054 3.1745 11 11.1678 2.9652 4 19 15 0.1902
## G32 Masculino 172 11.8663 3.2587 12 11.7681 2.9652 5 20 15 0.2133
## kurtosis se IQR Q0.25 Q0.75
## G31 -0.4009 0.2334 4 9 13
## G32 -0.5180 0.2485 4 10 14
##
## Kruskal-Wallis rank sum test
##
## data: G3 by sex
## Kruskal-Wallis chi-squared = 3.1464, df = 1, p-value = 0.0761
## [1] -0.1403718
##
## Pearson's product-moment correlation
##
## data: data$age and data$G3
## t = -2.6713, df = 355, p-value = 0.007905
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.24066109 -0.03711684
## sample estimates:
## cor
## -0.1403718
## category n mean sd median trimmed mad min max range skew
## G31 Rural 78 10.7308 3.1936 10 10.6094 2.9652 5 19 14 0.3577
## G32 Urbano 279 11.7455 3.2080 11 11.6800 2.9652 4 20 16 0.1719
## kurtosis se IQR Q0.25 Q0.75
## G31 -0.1575 0.3616 4.5 8.25 12.75
## G32 -0.4867 0.1921 4.0 10.00 14.00
##
## Kruskal-Wallis rank sum test
##
## data: G3 by address
## Kruskal-Wallis chi-squared = 5.7749, df = 1, p-value = 0.01626
## category n mean sd median trimmed mad min max range
## G31 Separados 39 11.7692 3.5278 11 11.6667 2.9652 6 19 13
## G32 Viviendo juntos 318 11.4937 3.1938 11 11.4414 2.9652 4 20 16
## skew kurtosis se IQR Q0.25 Q0.75
## G31 0.3720 -0.5665 0.5649 3.5 10 13.5
## G32 0.1735 -0.4494 0.1791 5.0 9 14.0
##
## Kruskal-Wallis rank sum test
##
## data: G3 by Pstatus
## Kruskal-Wallis chi-squared = 0.13396, df = 1, p-value = 0.7144